【TASLP】Audio-Visual Cross-Attention Network for Robotic Speaker Tracking

发布日期：2023-06-16 返回

Audio-Visual Cross-Attention Network for Robotic Speaker Tracking

分享人：李一迪
研究方向：视听定位与跟踪
论文题目：Audio-Visual Cross-Attention Network for Robotic Speaker Tracking
论文作者：Xinyuan Qian, Zhengdong Wang, Jiadong Wang, Guohui Guan, Haizhou Li
作者单位：北京科技大学、香港中文大学（深圳）、新加坡国立大学
论文摘要：视听信号可以联合用于机器人感知，因为它们互为补充。这种多模态感官融合具有明显的优势，特别是在嘈杂的声学条件下。说话者定位作为一项重要的机器人功能，传统上是作为信号处理问题来解决的，现在更多地寻找深度学习解决方案。关键问题是如何有效地融合视听信号。说话者跟踪不仅比说话者定位更理想，而且可能更准确，因为它探索说话者的时间运动动态以进行平滑的轨迹估计。然而，由于缺乏大型注释数据集，说话人跟踪并没有像说话人定位那样得到很好的研究。在本文中，作者研究了机器人扬声器的到达方向（DoA）估计，重点是视听融合和跟踪方法。本文提出了一种跨模态注意力融合（CMAF）机制，该机制探索自注意力以学习模态内的时间依赖性，以及用于模态间对齐的交叉注意力机制。作者还在机器人平台上收集了真实的数据集来支撑这项研究。实验结果表明，本文提出的网络在噪声条件下优于最先进的视听定位和跟踪方法，在SNR=−20dB时精度分别提高了5.82%和3.62%。
原文链接：

点击此处